Meta-Transformer：1个框架理解12种模态引发的质变与涌现（已开源）

OpenGVLab 将门创投

2024-08-23

多模态大模型（Large Multimodal Model）让AI像人类一样具备文字、视觉、声音等多种模态信息的融合处理能力，是迈向通用人工智能（AGI）的重要路径。各研究机构一直在不断进行多模态方面的突破。2021年，OpenAI的CLIP 将图像与文本进行统一学习的方式就取得了巨大的成功。多模态多少是多？不同模态数据如何匹配？这是实现模态通用感知存在着艰巨挑战。

近日，香港中文大学多媒体实验室（CUHK MMLab）联合上海人工智能实验室的OpenGVLAB研究团队提出一个统一多模态学习框架 Meta-Transformer，实现骨干网络的大一统，具有一个模态共享编码器，并且无需配对数据，即可理解 12 种模态信息, 并提供了多模态无边界融合的新范式。相比CLIP、BEiT-3、Imagebind，模态数目大幅增加，并且摆脱了多模态训练过程中对于配对数据的依赖性，为多模态学习提供了新路径。

论文链接：
https://arxiv.org/abs/2307.10802
开源代码地址：
https://github.com/invictus717/MetaTransformer

Meta-Transformer 框架下统一的多模态感知，能够处理 12 种不同的模态

除了文本、图像、点云、音频、视频等常规模态，Meta-Transformer创新性的融合了时间序列，处理红外、超光谱、X 射线、表格、惯性测量单元（IMU）信息。我们惊喜的发现，当单一能力有序组合在一起时，量变引起质变，使得基础模型初步具备涌现能力，能够做天气预测、看X光片判断病情，识别遥感图像，高光谱图像，分析社交网络数据、甚至针对股票数据学习预测等。

Meta-Transformer发布3天内，已在推特获得40万浏览量，MarketChpst发文解读，评论道：

“不同于现有的多模态方法受困于测试任务数据只能是预训练模态的子集，Meta-Transformer仅需要LAION-2B的图文预训练，即可在没有见过的多个模态多个任务上表现出最优性能。”

我们认为，ChatGPT在单一模态上通过纵向提升参数规模得到的涌现能力，Meta-Transformer可能通过横向的更多模态的通用流型嵌入空间内更加泛化的表征得到了通用感知能力的涌现。

例如，在高光谱图像、点云理解、医疗诊断、图像、声音、时间等领域，Meta-Transformer性能均已接近相应领域的专用模型。

一、技术解读：三大特征

1.1 统一的模态共享编码器

相比于先前 CLIP 使用不同的图像和文本编码器，以及 BEIT-3 的部分共享编码器框架，Meta-Transformer 的核心设计在于一个所有模态完全共享的编码器。该设计在编码器层面统一多达 12 个模态，证明了多模态数据完全共享编码器的可行性。共享编码器有助于在编码器阶段减小由不同的网络参数引入的表征差异，这离统一的多模态感知智能更近了一步，即一个通用的网络结构处理任意模态的信息。

Meta-Transformer 可以有效地处理和学习高达 12 种模态的数据，从常见的文本、图像到音频、视频，甚至在其他更复杂的数据类型上也有所突破，如点云和高光谱数据。该设计有助于拓宽未来的多模态工作的设计思路。

图 2：Meta-Transformer 的框架图：对于不同模态的数据，研究人员基于不同模态的信息特性设计了相应的特征序列构造方式，接着将得到的特征序列输入到预训练后参数冻结的编码器中，由此提取的表征能够在多个模态上解决下游多个任务

1.2 无需配对数据：更加灵活的训练方式

当前许多模态工作依赖于内容配对的多模态数据来语义对齐两个模态，但收集生成多个模态两两之间配对的数据的高难度限制了当前的多模态工作推广到更广泛的数据模态上。为了缓解这一限制，该研究提出 Data2Seq 方法，将不同模态的原数据嵌入到一个共同编码空间，转换成各自对应 token 序列，随后使用统一的模态共享编码器继续编码 token 序列，因而任一模态的数据就可以训练 Meta-Transformer 感知相应的模态的能力。实验表明，Meta-Transformer 能够在缺少配对数据训练场景下展现优异性能。

1.3 通向模态通用感知

现有的多模态模态框架多侧重于视觉和语言，较少衍生到更多其他模态。相比之下，Meta-Transformer 能够对于 12 种不同的数据模态提供一套统一的学习框架，包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元（IMU）数据。这种广泛的数据模态覆盖，极大扩展了 Meta-Transformer 的应用范围，并且 Meta-transformer 框架对于扩展到更多的模态有着易扩展、低成本、高训练效率的优势。

Meta-Transformer 相比同类工作，不依赖配对数据，即可处理更多模态

二、技术解读：方法介绍

Meta-Transformer 统一处理来自不同模态的数据，并通过共享编码器完成对十二种模态的编码。为了实现这一目标，Meta-Transformer 由三个部分组成：Data2Seq tokenization 模块、统一的共享编码模块和下游任务学习模块。

首先，研究人员提出了一套处理多模态数据的核心方案：数据分组 — 卷积提取局部语义 — 语义聚合 —— 空间映射，将各种模态的数据转换为在同一个共享的嵌入空间内的 token 序列。

图 3：Data-to-Sequence 的设计方案能够有效地将不同模态的数据转化为同一个流行嵌入空间内的 token 序列，具有极强的模态拓展性。

紧接着，Meta-Transformer 将使用统一的共享编码器对上一步得到的的不同模态的 token 序列进行编码。研究人员使用 LAION-2B 数据集对于骨干网络进行预训练，在预训练之后冻结了模型参数，得到深度为 L 的 Transformer 编码器由多个堆叠的多头自注意力（MSA）层和 MLP 块组成。输入的 token 首先进入 MSA 层，然后进入 MLP 块。然后第 (ℓ- 1) 个 MLP 块的输出作为第 ℓ 个 MSA 层的输入，层归一化（LN）被添加到每一层之前。MLP 包含两个线性 FC 层和一个 GELU 非线性激活层。

最后，在获得学习表征后，研究人员将表征输入特定任务的头，它主要由 MLP 组成，因模态和任务而异。Meta-Transformer 的学习目标可以概括为

其中与，分别表示 tokenizer，模型骨干网络，以及下游任务网络中的运算过程。

三、技术解读：实验结果

Meta-Transformer 具有丰富且优秀的实验结果。下表 2 展示了 Meta-Transformer 在不同模态上的实验内容。可以看出，Meta-Transformer 从 12 种模态中提取表征信息，能够有效地服务 16 个不同模态的下游任务，且拥有出色的性能。

表 2：Meta-Transformer 能处理 12 个模态的 16 个感知任务.

图 3：Meta-Transforme 有着优秀的多模态感知能力，在文字、图像、点云、声音、红外、高光谱以及医疗 X 光图像理解任务方面与现有的单模态 SOTA 模型性能相接近，并且在多模态理解能力方面大幅领先 ImageBind.

3.1 图像理解能力：

如下表 3 所示，与 Swin Transformer 系列和 InternImage 相比，Meta-Transformer 在图像理解任务中表现突出。在分类任务中，Meta-Transformer 与 Meta-Transformer-B16F 和 Meta-Transformer-L14F 在零镜头分类下的表现非常好，分别达到了 69.3% 和 75.3%。与此同时，当调整预训练参数时，Meta-Transformer-B16T 和 Meta-Transformer-L14T 分别达到 85.4% 和 88. 1% 的准确率，超越了现有最先进的方法。在目标检测与语义分割方面，Meta-Transformer 也提供了出色的性能，进一步证明了其对图像理解的通用能力。

表 3：Meta-Transformer 对于图像理解方面的能力，分别在 ImageNet-1K 图像分类，MS COCO 目标检测，以及 ADE-20K 的语义分割上进行了评估。

3.2 点云理解能力：

表 4 展示了 Meta-Transformer 在点云上的实验结果。当在二维数据上进行预训练时，Meta-Transformer 在 ModelNet-40 上仅用 0.6M 可训练参数就达到了 93.6% 的总体准确率（OA），与表现最好的模型不相上下。此外，Meta-Transformer 在 ShapeNetPart 数据集中表现出色，仅训练 2.3M 参数的情况下，在实例 mIoU 和类别 mIoU 方面都获得了最好的实验结果，分别为 87.0% 和 85.2%。由此可见，Meta-Transformer 在点云理解任务中表现出了显著的优势，在可训练参数较少的情况下提供了具有竞争力的性能。

表 4：Meta-Transformer 对于点云理解方面的能力，分别在 ModelNet-40 形状分类，S3DIS 室内场景分割，以及 ShapeNet Part 物体分割任务上进行了评估。

四、研究结论

Meta-Transformer 是一种统一的多模态学习框架，它能处理并关联来自多种模态的信息，包括自然语言、2D 图像、3D 点云、音频、视频等。它实现了无配对训练数据的场景下进行多模态感知，是第一个能够在 12 种模态上进行统一学习的框架。Meta-Transformer 能够有助于将多模态大模型推广至更多模态，也为实现统一的多模态智能提供了参考。Meta-Transformer 具有的多模态感知理解能力也会为人工智能技术作为服务全社会的基础设施，对于教育、医疗、娱乐等领域提供更智能、更便捷、更丰富多元的服务。

来源：公众号【书生 OpenGVLab】

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”▼将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

点击右上角，把文章分享到朋友圈点击“阅读原文”按钮，查看社区原文⤵一键送你进入TechBeat快乐星球

继续滑动看下一个

将门创投

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

Meta-Transformer：1个框架理解12种模态引发的质变与涌现（已开源）

Meta-Transformer 框架下统一的多模态感知，能够处理 12 种不同的模态

一、技术解读：三大特征

1.1 统一的模态共享编码器

1.2 无需配对数据：更加灵活的训练方式

1.3 通向模态通用感知

Meta-Transformer 相比同类工作，不依赖配对数据，即可处理更多模态

二、技术解读：方法介绍

图 3：Data-to-Sequence 的设计方案能够有效地将不同模态的数据转化为同一个流行嵌入空间内的 token 序列，具有极强的模态拓展性。

三、技术解读：实验结果

表 2：Meta-Transformer 能处理 12 个模态的 16 个感知任务.

图 3：Meta-Transforme 有着优秀的多模态感知能力，在文字、图像、点云、声音、红外、高光谱以及医疗 X 光图像理解任务方面与现有的单模态 SOTA 模型性能相接近，并且在多模态理解能力方面大幅领先 ImageBind.

3.1 图像理解能力：

表 3：Meta-Transformer 对于图像理解方面的能力，分别在 ImageNet-1K 图像分类，MS COCO 目标检测，以及 ADE-20K 的语义分割上进行了评估。

3.2 点云理解能力：

表 4：Meta-Transformer 对于点云理解方面的能力，分别在 ModelNet-40 形状分类，S3DIS 室内场景分割，以及 ShapeNet Part 物体分割任务上进行了评估。

四、研究结论

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

生成图片，分享到微信朋友圈

Meta-Transformer：1个框架理解12种模态引发的质变与涌现（已开源）

Meta-Transformer 框架下统一的多模态感知，能够处理 12 种不同的模态

一、技术解读：三大特征

1.1 统一的模态共享编码器

1.2 无需配对数据：更加灵活的训练方式

1.3 通向模态通用感知

Meta-Transformer 相比同类工作，不依赖配对数据，即可处理更多模态

二、技术解读：方法介绍

图 3：Data-to-Sequence 的设计方案能够有效地将不同模态的数据转化为同一个流行嵌入空间内的 token 序列，具有极强的模态拓展性。

三、技术解读：实验结果

表 2：Meta-Transformer 能处理 12 个模态的 16 个感知任务.

图 3：Meta-Transforme 有着优秀的多模态感知能力，在文字、图像、点云、声音、红外、高光谱以及医疗 X 光图像理解任务方面与现有的单模态 SOTA 模型性能相接近，并且在多模态理解能力方面大幅领先 ImageBind.

3.1 图像理解能力：

表 3：Meta-Transformer 对于图像理解方面的能力，分别在 ImageNet-1K 图像分类，MS COCO 目标检测，以及 ADE-20K 的语义分割上进行了评估。

3.2 点云理解能力：

表 4：Meta-Transformer 对于点云理解方面的能力，分别在 ModelNet-40 形状分类，S3DIS 室内场景分割，以及 ShapeNet Part 物体分割任务上进行了评估。

四、研究结论

您可能也对以下帖子感兴趣